流数据挖掘：证券投资的金导航_新兴技术

流数据对证券行业算法交易、数据模型的建立等应用具有很大价值，这也使得引入流数据上的数据挖掘技术显得非常重要且必要。

当前金融领域的许多公司纷纷将流数据挖掘技术应用到金融领域的数据分析中。

流数据是一组顺序、大量、快速、连续到达的数据序列，一般情况下，数据流可被视为一个随时间延续而无限增长的动态数据集合。它具有以下几个特点：数据实时到达；数据到达次序独立，不受应用系统所控制；数据规模宏大且不能预知其最大值；数据一经处理，除非特意保存，否则不能被再次取出处理，或者再次提取数据代价昂贵。

流数据对证券行业算法交易、数据模型的建立等应用具有很大价值，这也使得引入流数据上的数据挖掘技术显得非常重要且必要。

王作敬.jpg

一、国内外流数据技术发展情况

目前流数据的研究主要可分为两个应用层面：对流数据的管理以及对流数据的挖掘。流数据相关算法可以分为三大类：作为管理及挖掘基础的数据摘要生成算法；主要面向管理的流数据统计查询算法；流数据分类、高频项挖掘、聚类、变化等挖掘算法。Babcock等人现已完整阐述了流数据的各种相关问题，之后的流数据相关文献基本围绕以上内容展开，国外已进行了深入研究。

国内关于流数据挖掘方面的研究和应用尚在初始阶段，研究理论、算法和技术不多也不太成熟，应用也处于探索阶段。有学者已经提出了相关理论的具体应用前景，但应用成果还比较欠缺。总体看来主要包括：金融业的传统的和电子商务中的交易行为分析、市场营销、客户关系管理和风险管理；信息检索和搜索引擎；生物信息学；智能交通运输工程；电信电话记录监测、电子邮件、电力、石油等行业数据库安全管理与监测、网络安全等领域的异常挖掘等方面。

二、金融领域中流数据挖掘算法应用涉及的关键技术

1．概要数据结构

在流数据处理系统中，由于数据量远大于可用内存，系统无法在内存中保存所有扫描过的数据，而流数据查询与挖掘经常会要求读取这些数据。为了避免代价昂贵的磁盘存取，流数据处理系统必须在内存维持一个概要数据结构，以保留扫描过的信息。

2．滑动窗口技术

使用滑动窗口的需求来自算法和应用。在算法方面，滑动窗口减少了算法需要处理的数据量，并对挖掘变化的数据流提供支持。在应用方面，有些应用只对最近的数据感兴趣，要求算法对以当前时间为终点的某个滑动窗口内的数据进行处理。

在滑动窗口上进行数据挖掘最大的困难在于过期数据的移除。随着数据的流入，滑动窗口中最早到达的数据将滑出窗口的范围，算法需要消除这些数据对滑动窗口上的目标计算所造成的影响。解决这个问题的最直接做法是保存滑动窗口内的所有数据，当某个数据滑出窗口时，根据这个数据的值将其从计算结果中消除。目前，多个采用滑动窗口模型的挖掘算法使用这种方法实现滑动窗口上的计算，如CVFDT。这种方法可以精确地对滑动窗口内的计算结果进行增量式更新。但是，由于要保存窗口内的所有数据，对其大小超过可用内存空间的滑动窗口，仍然需要进行磁盘存取。

为减少滑动窗口内数据所占用的空间，还有一种方法以降低滑动窗口上计算的精度为代价，使用小于滑动窗口内数据体积的空间，支持滑动窗口上计算的增量式更新。这种方法将数据流划分为小的固定长度的段（bucket，或basicwin2dow)，对每个段，仅保存段内数据的概要信息，如StaS2trearn。滑动窗口在这些段上滑动。当流入的数据积累成一段时，抽取这一段的概要信息，将其加入滑动窗口，并从滑动窗口中删除最早的段。这样，内存中就只需要保存滑动窗口中多个段的概要信息。此时，滑动窗口的增量式更新粒度由一个数据项增大为一个数据段。这种方法通常只支持大小为段大小的整数倍的滑动窗口上的计算。通过保存每个段的数据的离散傅立叶变换系数，能支持任意窗口大小内的数据流关联系数计算。

3．多窗口技术

基于滑动窗口的方法一般都要求用户事先指定窗口大小，算法在运行过程中只能给出此滑动窗口上的计算结果。而在很多应用中，用户可能在线提出某个窗口上的挖掘请求，此窗口的大小没有事先确定，而且窗口的终点可能也不是当前时刻。为了支持这样的应用需求，学者们提出一种多窗口方法，支持用户的在线挖掘请求。

多窗口技术在内存或磁盘中保存数据流上多个窗口内数据的概要信息。在有些算法中，每个窗口的范围都是从数据流起始点到窗口建立的时刻点，窗口中的数据存在重叠，如CluStream所使用的pyramidal时间框架。另一类多窗口技术将数据流划分为多个固定长度的段，每个段都形成一个窗口。当内存中的窗口数达到一定数目时，就将这多个窗口合并，形成概要层次更高的窗口。随着数据流的流入，概要层次不同的多个窗口形成一个层次结构。此时，每个窗口相当于对数据流上两个预定义的时间戳之间数据的一个快照。

4．衰减因子

除了滑动窗口技术，另一种可被用来消除历史数据对当前计算结果的影响的方法是使用衰减因子。在这种方法中，每个数据项都被赋予一个随时间不断减小的衰减因子，数据项的值与衰减因子相乘后再参与计算。因此，数据项对计算结果的影响随时间的推移逐渐减小。这种方法的实现很简单，但是与滑动窗口技术相比，其计算结果的意义不是非常明确。在使用滑动窗口的算法中，用户明确地知道他是在对哪些数据进行处理。而在使用衰减因子的方法中，每项数据都只是部分地参与了计算，用户无法确定计算结果到底由哪些数据得到。

5．近似技术

由于数据流处理严格的时间与空间限制，确定且精确的流数据算法比较少见。对于大多数算法，只能以降低计算结果的精度为代价，换取算法时空复杂度的降低。理论上保证近似程度的算法是比较理想的近似算法。

目前，有多种近似技术可用来降低算法的时空复杂度。例如，基于概要数据结构的算法都是近似算法。这是因为在构建概要数据结构时，不可避免地存在着信息的损失，概要数据结构只能近似还原原有数据。基于多窗口技术和衰减因子的算法也是近似算法。除了使用这些通用的压缩技术，也可针对具体的挖掘任务，设计相应的近似算法。

1 2 下一页尾页